在基于学术和行业的研究中,在线评估方法都被视为推荐系统等交互式应用程序的黄金标准。自然,这样做的原因是,我们可以直接测量依赖干预措施的实用程序指标,这是向用户显示的建议。然而,由于多种原因,在线评估方法是昂贵的,并且对于可靠的离线评估程序仍然存在明确的需求。在行业中,离线指标通常被用作一线评估,以生成有前途的候选模型来在线评估。在学术工作中,对在线系统的有限访问使离线指标是验证新方法的事实上的方法。存在两个类别的离线指标:基于代理的方法和反事实方法。头等舱通常与我们关心的在线指标相关,而后一类仅根据在现实世界中无法实现的假设提供理论保证。在这里,我们表明基于模拟的比较为离线指标提供了前进的方向,并认为它们是可取的评估手段。
translated by 谷歌翻译
我们介绍了概率等级和奖励模型(PRR),这是一个可扩展的概率模型,用于个性化的Slate建议。我们的模型允许在以下无处不在的推荐系统方案中对用户兴趣的最新估计:向用户显示了k个建议的板岩,用户最多可以选择这些K项目中的一个。推荐系统的目标是找到用户最感兴趣的K项目,以最大程度地提高用户与Slate交互的可能性。我们的贡献是表明,我们可以通过结合奖励(无论是否单击板岩,以及等级)而更有效地学习建议成功的可能性。我们的方法比仅使用奖励和仅使用等级的用户偏好方法的盗销方法更有效地学习。它还提供了与独立的逆点分数方法相似或更好的估计性能,并且更可扩展。我们的方法是在大量数据集中的速度和准确性方面的最高速度,最多100万个项目。最后,我们的方法允许快速交付由最大内部产品搜索(MIPS)提供动力的建议,使其适用于极低的延迟域,例如计算广告。
translated by 谷歌翻译
个性化交互式系统(例如推荐系统)需要选择取决于上下文的相关项目。生产系统需要从非常大的目录中迅速识别这些项目,这些目录可以使用最大的内部产品搜索技术有效地解决。通过放松离散问题,可以实现最大内部产品搜索的离线优化,从而导致政策学习或增强样式学习算法。不幸的是,这种放松步骤需要在整个目录上计算一个总和,从而使梯度评估的复杂性(因此每个随机梯度下降迭代)在目录大小中线性线性。在许多现实世界中,该计算是站不住脚的示例,例如大型目录推荐系统严重限制了该方法在实践中的实用性。在本文中,我们展示了如何产生这些政策学习算法的出色近似值,以对数与目录大小进行对数。我们的贡献是基于结合三个新颖想法的结合:对政策梯度,自我正常化的重要性采样估计器以及在训练时使用快速最大内部产品搜索的新蒙特卡洛估计。广泛的实验表明,我们的算法比幼稚的方法更快,但产生同样好的策略。
translated by 谷歌翻译